开年第二弹|十大政府部门数据公开质量测评(下)
“十大政府部门数据公开质量测评”系列旨在从普通公众的视角——即没有技术背景、只是需要查询和收集政府数据的普通用户角度,对十个最常发布数据的政府部门进行测评。在昨天的《开年第一弹|十大政府部门数据公开质量测评(上)》,我们测评了商务部、国家统计局、国家卫健委、自然资源部、民政部等五个部门的数据公开质量,本篇是该系列推送的下篇,我们将测评另五个部门:中国人民银行、海关总署、财政部、人力资源和社会保障部、香港特别行政区政府。
与《测评(上)》一致,我们设定了九个封闭式问题作为评价指标,以是(✅)或否(❌)来回答。
06
中国人民银行
pbc.gov.cn
测评人 刘怡迪
· 网页归类不太合理,用户查想要查找某一细项数据的过程繁琐;
· 数据没有辅助图表;专业性较强的数据指标没有解释说明;
· 数据完整性、及时性、结构化、可机读性等方面做得较好
中国人民银行的数据入口说好找也好找,说不好找也确实不好找。下图是央行官网的首页截图,大家可以挑战一下,看能否一下子就找到数据入口。
央行官网首页
正确答案是:“信息公开”栏第一行第八个链接“调查统计”;也可以点击页面中间的“统计数据与标准”
央行数据库按照两种方式对数据进行分类,第一种是年份,第二种是主题,如下图左侧导航栏。用户必须点进某一主题才能看到该主题所包含的数据细项。
其实在栏目导航里可以做个筛选工具,不然这右下方大块的空白……太丑了
另外,虽然这两种分类看上去清晰明了,但使用起来还是很不方便。比如,我想找“黄金与外汇储备”数据,如果从左侧菜单栏入手,我是不知道“黄金与外汇储备”归在哪个主题下的,必须一一点开,才能发现这项数据属于“货币统计概览”。如果从年份入手,会发现,2008年以前,只要点开该年份,就能找到这一项数据。
红框处即为2007年黄金和外汇储备数据
但是2008年以后,完整的数据列表没了,多了一层菜单,又不知“黄金与外汇储备”究竟被归在了哪?
点开2008年,发现多了一层菜单
虽然经过整合,数据的分类更清晰了,但会使用户寻找某一细项数据的步骤更繁琐了;并且,关于分类层级的变化网站没有在数据库的任何一处有说明,用户很可能像我一样懵。
值得一提的是,央行的数据都是结构化的,基本都是以表格的形式呈现,清晰明了,并且完整。而且从2015年起,央行数据库大多都提供了xls格式的可下载文件。
央行的数据几乎都是这样的表格,清晰明了
以2020年的“货币统计概览”为例,点击不同格式按键可以下载相应格式的文件
综上,央行数据在完整性、及时性、结构化、可机读性等方面都做得都比较好,但网页归类不太合理,用户查找某一数据时较为困难;数据没有辅助图表;对于一些专业性较强的数据指标也没有解释说明,普通用户可能难以理解数据的具体含义。所以测评如下:
央行数据公开质量测评
07
海关总署
customs.gov.cn
测评人 陈家欣
· 所有数据都进行了结构化处理,但绝大多数都不提供表格文件,只能复制粘贴。
海关总署数据库可以先从首页导航栏的“互联网+海关”分栏进入,在该页面最底部的“我要看”里点击“海关统计资料”查看。
或者直接在首页底部,找到“政务公开”里的“数说海关”,点击“统计快讯”或“统计月报”即可直接进入。数据库寻找难度不大,入口还是比较清晰的。
海关总署的数据发布在“统计快讯”和“统计月报”两个板块,“统计快讯”的更新时间比统计月报早7至14天。从“统计月报”里点击每个月份即可直接进入表格浏览页面,都是结构化的数据!表格结构非常清晰!而且也能够直接在页面左下角的【表格下载】获取Excel文件,终于不是PDF和图片了!但事实证明,我还是高兴得太早了,因为我发现只有2020年提供了表格下载,其他年份的浏览界面就真的是个浏览界面……(但至少是可以复制粘贴原表的!也比PDF和图片好吧!)
统计快讯界面
统计月报界面
统计月报按时间(年/月)和币种(人民币/美元)进行归类,统计内容相近的表格会排布在一起。由于海关总署的数据量并不算大(18项),这种分类方式已足够清晰简洁、便于查找了。当然,我只是说方便查找,对于数据分析者来说,这可是非常令人抓狂的数据公布方式!如果我想要分析中国从欧洲进口总值在10年间的变化,就必须一张表一张表地下载,哦不对,是复制粘贴,才能获取连续的数据。
再来说说海关总署的数据在线查询平台。“操作指南”将整个平台使用流程解释得非常清晰,按步骤进行说明,在关键步骤配有截图;平台还提供了csv格式的文件给用户下载,能够感受到平台搭建者的友好。但是这个查询平台仅提供最近四年的四项数据,大部分海关公布的数据还是不可机读和下载的,因此我最后在“是否提供可机读的数据?”这一项上还是给了X(本测评员真的很严格)。
海关总署查询平台界面
海关总署数据库里是清一色的表格,至于数据可视化图表和分析,似乎只有“数说海关”处放了一个小小的面积图,而且仅涉及了近一年的进出口总值数据,如果用户想要更进一步去了解各项数据的变化趋势,就必须自行分析了。
还有一个大乌龙需要拿出来当众嘲一嘲,我发现海关总署竟然发错数据了,本该发外商投资企业数据的地方,竟然发成了经济特区的数据(参见下面两张图片里的红框部分)?这种直接发错整个表格的低级错误实在是不应该出现……
错误的外商投资企业进出口总值表
正确的外商投资企业进出口总值表
综合整个浏览与使用体验,我给海关总署数据库做出了以下评价:
海关总署数据公开质量测评
08
财政部
mof.gov.cn
测评人 龚一悦
· 不同部门公布的数据形式各异、没有统一标准
· 数据基本都为非结构化、不可机读
财政部官网上有名为“财政数据”的入口,点击进入即可看见财政部相关数据。
但是,此“财政数据”并没有囊括所有与财政相关的数据,在其右侧的“重点专题”中,还散落着归属于各专题的数据。这种归类方法可能便于网站管理,但却是一种偷懒的方法。
本测评员还发现,财政部下属不同司公开数据的形式各异,没有统一标准。比如,资产管理司和国库司的数据汇报方式就是纯文本,预算司会附上整理数据的PDF文件,综合司则会配上可机读数据下载链接及辅助图表。另外,不同专题的数据在是否公布可机读数据、是否使用辅助图表方面也有差异,在此不赘述。
资产管理司公布的数据
预算司公布数据
综合司公布的数据
看着各种文章形式的数据,我想到,这些数据没有时间、主题等结构框架,在这样庞杂得让人眼花缭乱的数字和文字中,我们怎样能准确判断哪些数据有缺失、哪些文章更改了发布格式呢?这非常不利于研究和分析历史数据。
财政部数据公开质量测评
09
人力资源和社会保障部
mohrss.gov.cn
测评人 冯欣
· 数据入口不明显
人社部主要发布我国的就业数据,网站主页上看不到数据入口,菜单设置也不太明显,一进入官网有一种不知道该点击哪里的感觉。接下来需要用鼠标一一悬浮在左侧白色文字上才能看到,数据被归在了“政务公开”之下的“数字人社”栏目之下;然而“数字人社”并不能被点击,也就是说我们不能进入一个目录页或是专题页,只能直接进入“统计公报”“统计数据”或是“数据分析”这三项之一。
人社部主页
点击“统计数据”,发现数据是根据时间发布的先后顺序排列,整齐而完整,让强迫症的我感到非常舒适。
但是任意点进去一条,又有一种暴击感——所有文章页面只有一个标题,而且全部都是PDF文件!
PDF 文件
虽然数据以表格形式呈现,简明清楚,但是PDF格式只适合阅读,我们无法快捷、简便地分析这些数据。举一个简单的例子,我如果想要看一看今年每个月的新增就业人数以及变化趋势,就需要在这个网站上点开12篇文章,分别将这些数据誊抄在一张表格上,进一步分析或做图,才能得到我想要的答案。就业和参保数据是非常基础的国民数据,我对人社部的数据发布形式感到有些遗憾。基于这些考察,我给出了以下测评:
人社部数据公开质量测评
10
香港特别行政区
data.gov.hk/sc
测评人 赵敏竹
· 提供的数据范围信息不够清晰
· 下载数据流程较繁琐
· 虽然提供可视化交互图表,但图表排布较混乱
· 分类界面清晰整洁
· 搜索功能强大,还提供更高级的API构建器
2014年建立的香港数据门户网站「资料一线通」(data.gov.hk)无疑是本次测评中的优等生。它由香港政府资讯科技总监办公室统筹推动,专门汇总来自各政府及公共/私营机构的公开资料。作为专门的数据资料平台,「资料一线通」有着清晰整洁的分类界面、强大的搜索功能、独特的API构建器...... 不过,这位选手就真的尽善尽美了吗?
进入「资料一线通」网站界面,用户就可以看到不同分类的数据集入口,包括:发展、环境、卫生、食物、工商业等19个大分类。如果你是首次浏览,网站还提供新手教程,带你快速扫描网站各项重点功能。
「资料一线通」首页
除了简洁清晰的分类管理,「资料一线通」在搜索功能上也非常优秀,除传统的关键词搜索外,用户还可以根据数据提供机构/ 数据分类/ 格式对数据集进行索引。另外,网站还提供“进阶”的API接口,开发者可以自行调整参数规则,输出数据。
「资料一线通」数据搜索区
接下来让我们看看网页的可视化,「资料一线通」开辟了一块“城市仪表板”功能,专门将部分公开资料图像化,这舒服的配色和顺滑的交互秉承「资料一线通」一向的高级感,让本测评员一眼望去对它的好感蹭蹭蹭上涨!不过...... 实际体验后,我发现目前的“城市仪表板”在排布上略显杂乱,没有文字的辅助解释,更像是一个图表的堆砌,实在是让人看得云里雾里。
“城市仪表板”界面
「资料一线通」的数据集如何下载呢?若点开具体数据集,可以发现数据集标题下方特地标明了各个数据集的更新频率;“数据字典”栏目下还提供完整的数据背景介绍。
“15岁及以上人口的教育程度分布”数据集界面
用户还可以自定义数据下载的时间范围。不过,网页并不会告诉你数据本身提供的时间范围..... 我怀着激动的心情下载了近十五年“15岁及以上人口的教育程度分布”数据, 打开下载包却发现只有近五年的数据......
“15岁及以上人口的教育程度分布”数据集下载界面
另外,从「资料一线通」下载数据的方式也不是那么直接,首先你要将目标数据“加入下载列”,而后到下载列界面提交申请,一切准备就绪之后,按下黄色按钮打包下载,才算完成,步骤还是比较繁琐。
数据集下载步骤一:将历史数据集添加到下载列
数据集下载步骤二:提交下载申请
数据集下载步骤三:下载数据集
综上,这位选手整体来看依然十分优秀,但在部分环节还有进步的空间,于是我给出如下测评:
香港特别行政区数据公开质量测评
总结
十大政府部门数据的测评结果
SUMMARY
十大政府部门数据公开质量已全部测评完毕,总结所有政府部门的测评结果:
十大政府部门数据公开质量测评
对于测评结果进行进一步分析:
十大政府部门数据公开质量测评分析
我们的测评标准虽然不是严格意义上的科学测评,但却是以普通公众使用政府公开数据的体验来作为出发点。我们很遗憾地发现,十大政府部门在“数据是否完整”和“数据是否容易查询”这两项最基本的测评中表现都较差,仅有四个部门能够发布完整的数据;只有一半部门会为公众提供理解数据的辅助信息或图表;而更进阶的“是否提供可机读数据”一项,也仅有三个部门能够达标,我们离建设一个“数字中国”还有很长的路要走。
END
【信源雷达】是搜信源公众号每周更新一次的栏目,旨在搜集与分享高质量的公开信息及数据。如果您愿意分享您知道的优质信源,欢迎您给我们留言;如果您愿意参与撰写本栏目,欢迎您给我们投稿,我们将以稿酬表示感谢。过往的信源雷达可在石墨文档:https://shimo.im/sheets/Ktg8ktdyVvVvJyqK/MODOC获得